我们提出了一种基于机器学习的新型方法来解决涉及大量独立关注者的二重性程序,作为一种特殊情况,其中包括两阶段随机编程。我们提出了一个优化模型,该模型明确考虑了追随者的采样子集,并利用机器学习模型来估计未采样关注者的客观值。与现有方法不同,我们将机器学习模型培训嵌入到优化问题中,这使我们能够采用无法使用领导者决策来表示的一般追随者功能。我们证明了由原始目标函数衡量的生成领导者决策的最佳差距,该目标函数考虑了整个追随者集。然后,我们开发追随者采样算法来收紧界限和一种表示追随者功能的表示方法,可以用作嵌入式机器学习模型的输入。使用骑自行车网络设计问题的合成实例,我们比较方法的计算性能与基线方法。我们的方法为追随者的目标价值观提供了更准确的预测,更重要的是,产生了更高质量的领导者决策。最后,我们对骑自行车基础设施计划进行了现实世界中的案例研究,我们采用方法来解决超过一百万关注者的网络设计问题。与当前的自行车网络扩展实践相比,我们的方法提出了有利的性能。
translated by 谷歌翻译
在动态环境中,持续增强学习(CRL)的关键挑战是,随着环境在其生命周期的变化,同时最大程度地减少对学习的信息的灾难性忘记,随着环境在其一生中的变化而变化。为了应对这一挑战,在本文中,我们提出了Dacorl,即动态自动持续RL。 Dacorl使用渐进式上下文化学习了上下文条件条件的策略,该策略会逐步将动态环境中的一系列固定任务群集成一系列上下文,并选择一个可扩展的多头神经网络以近似策略。具体来说,我们定义了一组具有类似动力学的任务,并将上下文推理形式化为在线贝叶斯无限高斯混合物集群的过程,这些过程是在环境特征上,诉诸在线贝叶斯推断,以推断上下文的后端分布。在以前的中国餐厅流程的假设下,该技术可以将当前任务准确地分类为先前看到的上下文,或者根据需要实例化新的上下文,而无需依靠任何外部指标来提前向环境变化发出信号。此外,我们采用了可扩展的多头神经网络,其输出层与新实例化的上下文同步扩展,以及一个知识蒸馏正规化项来保留学习任务的性能。作为一个可以与各种深度RL算法结合使用的一般框架,Dacorl在稳定性,整体性能和概括能力方面具有一致的优势,而不是现有方法,这是通过对几种机器人导航和Mujoco Socomotion任务进行的广泛实验来验证的。
translated by 谷歌翻译
自我介绍在训练过程中利用自身的非均匀软监管,并在没有任何运行时成本的情况下提高性能。但是,在训练过程中的开销经常被忽略,但是在巨型模型的时代,培训期间的时间和记忆开销越来越重要。本文提出了一种名为ZIPF标签平滑(ZIPF的LS)的有效自我验证方法,该方法使用网络的直立预测来生成软监管,该软监管在不使用任何对比样本或辅助参数的情况下符合ZIPF分布。我们的想法来自经验观察,即当对网络进行适当训练时,在按样品的大小和平均分类后,应遵循分布的分布,让人联想到ZIPF的自然语言频率统计信息,这是在按样品中的大小和平均值进行排序之后进行的。 。通过在样本级别和整个培训期内强制执行此属性,我们发现预测准确性可以大大提高。使用INAT21细粒分类数据集上的RESNET50,与香草基线相比,我们的技术获得了 +3.61%的准确性增长,而与先前的标签平滑或自我验证策略相比,增益增加了0.88%。该实现可在https://github.com/megvii-research/zipfls上公开获得。
translated by 谷歌翻译
我们提出了Pangu-Coder,这是一种仅预读的解码器语言模型,该模型采用pangu-alpha架构进行文本到代码生成,即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder:第一阶段采用因果语言建模(CLM)来预先培训原始编程语言数据,而第二阶段则使用因果语言建模和掩盖语言建模(MLM)的组合培训目标,专注于文本到代码生成的下游任务,并培训松散的自然语言程序定义和代码功能。最后,我们讨论了pangu-coder-ft,该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder,重点是它是否生成功能上正确的程序,并证明它在参加较小的上下文窗口和较少的数据培训的同时,它比诸如Codex之类的类似大小的模型(例如Codex)实现等效性或更好的性能。
translated by 谷歌翻译
作为在人类智能中获得可推广的解决方案的关键组成部分,推理为加强学习(RL)代理人对各种目标的概括提供了巨大的潜力,这是通过汇总部分到全部的论点并发现因果关系的。但是,如何发现和代表因果关系仍然是阻碍因果RL发展的巨大差距。在本文中,我们使用因果图(CG)增强目标条件的RL(GCRL),该结构是基于对象和事件之间的关系建立的。我们在小新生中将GCRL问题提出为变异的可能性最大化,将CG作为潜在变量。为了优化派生目标,我们提出了一个具有理论性能的框架,可以保证在两个步骤之间交替:使用介入数据来估计CG的后验;使用CG学习可推广的模型和可解释的政策。由于缺乏在推理下验证概括能力的公共基准测试,我们设计了九个任务,然后从经验上显示了对这些任务上五个基准的拟议方法的有效性。进一步的理论分析表明,我们的绩效提高归因于因果发现,过渡建模和政策培训的良性周期,这与广泛消融研究中的实验证据相吻合。
translated by 谷歌翻译
深度神经网络极大地促进了单图超分辨率(SISR)的性能。传统方法仍然仅基于图像模态的输入来恢复单个高分辨率(HR)解决方案。但是,图像级信息不足以预测大型展望因素面临的足够细节和光真逼真的视觉质量(x8,x16)。在本文中,我们提出了一种新的视角,将SISR视为语义图像详细信息增强问题,以产生忠于地面真理的语义合理的HR图像。为了提高重建图像的语义精度和视觉质量,我们通过提出文本指导的超分辨率(TGSR)框架来探索SISR中的多模式融合学习,该框架可以从文本和图像模态中有效地利用信息。与现有方法不同,提出的TGSR可以生成通过粗到精细过程匹配文本描述的HR图像详细信息。广泛的实验和消融研究证明了TGSR的效果,该效果利用文本参考来恢复逼真的图像。
translated by 谷歌翻译
二阶优化方法,尤其是D-KFAC(分布式Kronecker近似曲率)算法,在加速GPU簇上加速了深神经网络(DNN)训练方面已获得了吸引力。但是,现有的D-KFAC算法需要计算和传达大量二阶信息,即Kronecker因素(KFS),在预处理梯度之前,导致大量计算和通信开销以及高存储器足迹。在本文中,我们提出了DP-KFAC,这是一种新颖的分布式预处理方案,该方案将不同DNN层的KF构造任务分配给不同的工人。 DP-KFAC不仅保留了现有D-KFAC算法的收敛性属性,而且还可以带来三个好处:减少计算开销在构造KFS中,没有KFS的通信和低内存足迹。在64-GPU群集上进行的广泛实验表明,DP-KFAC将开销的计算开销降低了1.55 x-1.65x,通信成本降低2.79x-3.15x,并且内存足迹在每秒二阶更新中降低1.14x-1.47 x与最先进的D-KFAC方法相比。
translated by 谷歌翻译
在发展强化学习(RL)培训系统方面取得了重大进展。过去的作品,例如Impala,Apex,Seed RL,样本工厂等,旨在改善系统的整体吞吐量。在本文中,我们试图解决RL训练系统中的常见瓶颈,即平行环境执行,这通常是整个系统中最慢的部分,但很少受到关注。通过针对RL环境的策划设计,我们改善了不同硬件设置的RL环境模拟速度,从笔记本电脑和适度的工作站到NVIDIA DGX-A100等高端机器。在高端机器上,Envpool在Atari环境上的环境执行每秒可实现100万帧,在Mujoco环境上每秒执行300万帧。在笔记本电脑上运行时,Envpool的速度是Python子过程的2.8倍。此外,在开源社区中已经证明了与现有RL培训库的极大兼容性,包括Cleanrl,RL_Games,DeepMind Acme等。最后,Envpool允许研究人员以更快的速度迭代他们的想法,并具有巨大的潜力,并具有巨大的潜力事实上的RL环境执行引擎。示例运行表明,在笔记本电脑上训练Atari Pong和Mujoco Ant只需5分钟即可。 Envpool已经在https://github.com/sail-sg/envpool上开源。
translated by 谷歌翻译
随着人工智能和机器学习的日益普及,文献中已经提出了针对深度学习模型的广泛攻击。逃避攻击和中毒攻击都试图利用对抗性变化的样本来欺骗受害者模型以错误地分类对抗样本。尽管这种攻击声称是隐形的,即对人的眼睛看不见,但很少评估这种说法。在本文中,我们介绍了第一个大规模研究,涉及对深度学习的攻击中使用的对抗样本的隐身性。我们已经对六个流行的基准数据集实施了20种代表性的对抗ML攻击。我们使用两种互补方法评估了攻击样本的隐身性:(1)一项数值研究,采用24个指标用于图像相似性或质量评估; (2)对3组问卷的用户研究,从1,000多个回答中收集了20,000多次注释。我们的结果表明,大多数现有攻击引入了不可忽略的扰动,这些扰动对人的眼睛并不隐秘。我们进一步分析了有助于攻击隐身性的因素。我们进一步研究了数值分析与用户研究之间的相关性,并证明某些图像质量指标可能在攻击设计中提供有用的指导,而评估的图像质量和攻击的视觉隐身性之间仍然存在显着差距。
translated by 谷歌翻译
随着在各种算法和框架中更广泛地应用深度神经网络(DNN),安全威胁已成为其中之一。对抗性攻击干扰基于DNN的图像分类器,其中攻击者可以在其中故意添加不可察觉的对抗性扰动,以欺骗分类器。在本文中,我们提出了一种新颖的纯化方法,称为纯化的引导扩散模型(GDMP),以帮助保护分类器免受对抗性攻击。我们方法的核心是将纯化嵌入到deno的扩散概率模型(DDPM)的扩散denoisis过程中,以便其扩散过程可以逐渐添加的高斯噪声淹没对抗性的扰动,并且可以同时删除这两种声音。指导的deNoising过程。在我们在各个数据集中进行的全面实验中,提出的GDMP被证明可将对抗攻击造成的扰动降低到浅范围,从而显着提高了分类的正确性。 GDMP将鲁棒精度提高了5%,在CIFAR10数据集对PGD攻击下获得了90.1%。此外,GDMP在具有挑战性的Imagenet数据集上达到了70.94%的鲁棒性。
translated by 谷歌翻译